PCA é um procedimento matemático que utiliza uma transformação ortogonal (ortogonalização de vetores) para converter um conjunto de observações de variáveis possivelmente correlacionadas num conjunto de valores de variáveis linearmente não correlacionadas chamadas de componentes principais.
Em outras palavras, PCA é uma tentativa de reduzir muitas dimensões a um conjunto menor de dimensões principais.
Nosso objetivo é aplicar PCA aos dados de deputados que envolvem domínios diversos como atuação na câmara em proposições de Meio Ambiente, aderência ao governo em votações de Meio Ambiente, posições em votações importantes da legislatura passada, vínculo com o agronegócio, dentre outras.
As variáveis selecionadas foram:
A seguir iremos analisar essas variáveis e como se correlacionam.
Não existe uma correlação forte entre as variáveis, contudo pela distribuição das mesmas é possível perceber o quanto são enviesadas à direita, observada uma cauda bem longa. Isso evidencia a presença de poucos valores bastante altos na escala de cada variável, enquanto que a maior parte dos dados se concentra numa faixa menor em relação a esses valores mais raros.
Para remediar esse problema podemos usar a escala de log nos dados que irá considerar a magnitude de grandeza dos valores e não os valores absolutos em si.
É possível perceber para a variável do total declarado em bens rurais que houve um mudança na distribuição. Como esperado a escala de log espalha as observações de forma que é possível observar os pontos de forma mais clara e com o objetivo de entender as grandes diferenças entre as variáveis mas também as pequenas diferenças. Nota-se ainda a presença de muitos valores iguais a 0 nessa variável.
Com o objetivo de normalizar as variáveis de forma que cada uma tenha o mesmo “poder” de influência no cálculo das dimensões via PCA todas elas foram colocadas numa mesma escala.
Aplicamos o PCA aos dados e obtivemos dimensões que são resultado da combinação linear das variáveis escolhidas.
Cada dimensão obtida consegue representar uma porcentagem da variância nos dados, em outras palavras, cada dimensão consegue explicar parte dos dados.
Cada dimensão pode ser influenciada por um grupo de variáveis distintas e essas dimensões podem ser usadas para explicar a variância nos dados dessas variáveis.
A seguir apresentamos quais variáveis mais influenciaram as dimensões geradas via PCA.
A seguir apresentamos como os deputados estão distribuídos considerando essas as duas dimensões que melhor explicam os dados.
Deputados que estão próximos no gráfico são parecidos em relação as variáveis iniciais escolhidas. A cor do deputado indica a qualidade de representação das dimensões com relação as variáveis originais.
As variáveis originais tiveram suas dimensões reduzidas a duas, no entanto podemos observar como essas variáveis influenciam as dimensões obtidas via PCA.
É possível perceber que vetores ligados ao vínculo com o Agronegócio possuem direções parecidas.
A direção dos vetores indica o sentido de crescimento das variáveis quando explicadas pelas dimensões obtidas via PCA.
Abaixo iremos identificar quais os deputados representados na visualização
Nosso objetivo a seguir é identificar grupos de deputados que são parecidos entre si, a partir das 4 dimensões principais obtidas via PCA. A técnica utilizada para o agrupamento será o k-means. O k-means é um dos algoritmos mais usados para agrupamento e para usá-lo é necessário definir a quantidade de grupos que devem ser formados e os critérios (variáveis) para que elementos sejam agrupados.
Quanto maior é a medida da silhouette maior é a homogeneidade em um grupo, ou seja, os deputados de um grupo parecem mais com deputados do próprio grupo do que com deputados de outro grupo. A divisão em 4, é o máximo que podemos obter em termos da medida da silhouette e que faça sentido.
Tanto pelo gráfico da Silhoeutte quanto pela visualização acima é possível perceber que existem deputados que não se encaixam muito bem no grupo no qual foi classificado pelo algoritmo. Isto pode ocorrer devido a proximidade desses deputados de dois ou mais grupos sem que o mesmo se encaixe perfeitamente em nenhum deles. Portanto, pode existir casos isolados de deputados que pertecem a um grupo embora não seja tão parecido com ele.
Grupo 1 (Agro é pop): estão presentes aqueles que possuem um alto vínculo com o agronegócio, seja em sociedades de empresas agrícolas ou ainda em doações recebidas do setor, variáveis que influenciam a Dim1. Também são deputados estão ligados ao agro como proprietários Rurais. São deputados que, em sua maioria, participam de frentes ligadas ao Meio Ambiente.
Grupo 2 (Zona cinza): a maioria deste grupo não está ligado ao agro através das variáveis de doações e sociedade em empresas, embora existam casos que sim. Também não se destacam pela atuação na Câmara em proposições de Meio Ambiente ou ainda aderência alta ao Governo em votações de Meio Ambiente. Ou seja, nesse grupo podem existir deputados que são contra ao Governo em votações de Meio Ambiente em 2019.
Grupo 3 (Atuantes): a maioria dos deputados deste grupo destaca-se ou pela atuação em proposições de Meio Ambiente (na autoria de documentos) ou por ser bem aderente ao Governo. É possível que apenas uma dessas variáveis seja a causa deste deputado está presente neste grupo.
Grupo 4 (Agro é super pop): este grupo é o menor em número e concentra aqueles deputados que possuem altos valores na primeira dimensão (Dim1). Ou seja, valores altos na dimensão influenciada pelas variáveis de número de sociedades em empresas e a porcentagem de doação do Agro com relação a sua campanha.